智能论文笔记

随着互联网和智能手机的广泛影响，电子商务平台的用户群越来越多。由于本地语言用户的英语不是熟悉的，因此他们首选的浏览模式是他们的区域语言或区域语言和英语的组合。从我们最近关于查询数据的研究中，我们注意到我们收到的许多查询都是代码混合物，特别是hinglish，即用英语（拉丁）脚本写的一个或多个印地语单词的查询。我们为代码混合查询转换提出了一种基于变压器的方法，以使用户可以通过这些查询进行搜索。我们证明了在该任务上未标记的英语文本的大型语料库中训练的预训练的编码模型的有效性。使用通用域翻译模型，我们创建了一个伪标记的数据集，用于培训有关搜索查询的模型，并验证了各种数据增强技术的有效性。此外，为了减少模型的延迟，我们使用知识蒸馏和权重量化。该方法的有效性已通过实验评估和A/B测试验证。该模型目前在Flipkart应用程序和网站上直播，可供数百万个查询。

translated by 谷歌翻译

随着电子商务平台的民主化，一个越来越多的用户群选择在线购物。为了提供舒适和可靠的购物体验，重要的是要使用户以其选择的语言与平台进行互动。准确的查询翻译对于带有白话查询的跨语性信息检索（CLIR）至关重要。由于互联网规模的运营，电子商务平台每天都会获得数百万次搜索查询。但是，创建平行训练集以训练训练内域翻译模型很麻烦。本文提出了一种无监督的域适应方法，可以在不使用任何平行语料库的情况下翻译搜索查询。我们使用开放域翻译模型（在公共语料库中训练），并仅使用两种语言的单语言查询将其调整到查询数据中。此外，用小标签集进行微调进一步改善了结果。为了进行演示，我们显示了印地语对英文查询翻译的结果，并使用mbart-large-50模型作为改进的基线。实验结果表明，在不使用任何平行语料库的情况下，我们获得了20多个BLEU点比基线的改进，同时用小50K标签集进行微调可提供比基线的27个以上BLEU点的改进。

translated by 谷歌翻译

Answer Generation for Questions With Multiple Information Sources in E-Commerce

Anand A. Rajasekar , Nikesh Garera

分类：自然语言处理 | 机器学习

2021-11-27

自动问题回答是电子商务中的一个重要但具有挑战性的任务，因为用户发布了有兴趣购买的产品的数百万个问题。因此，对使用有关产品的相关信息提供快速响应的自动答案生成系统存在很大的需求。他们有三种知识来源可用于接听用户发布查询，它们是评论，重复或类似的问题和规范。有效利用这些信息来源将极大地帮助我们回答复杂问题。然而，利用这些来源存在两个主要挑战：（i）存在无关信息和（ii）的存在评论和类似问题的情绪模糊。通过这项工作，我们提出了一种新的管道（MSQAP），其通过在生成响应之前分别执行相关性和歧义预测来利用上述来源中存在的丰富信息。实验结果表明，与硼基基线相比，我们的相关性预测模型（BERT-QA）优于所有其他变体，并且在F1分数中提高了12.36％。我们的生成模型（T5-QA）优于所有内容保存度量的基线，如Bleu，Rouge，并且在Bleu中的平均提高35.02％，与最高表现为基线（HSSC-Q）相比，BLEU中的198.75％。人为评估我们的管道向我们展示了我们的方法在生成模型（T5-QA）上的准确性提高了30.7％，导致我们的全部管道的方法（MSQAP）提供更准确的答案。据我们所知，这是电子商务域中的第一个工作，它自动生成自然语言答案，将目前的信息与规格，类似问题和评论数据相结合。

translated by 谷歌翻译

在医学图像处理的领域中，医疗设备制造商在许多情况下通过仅运输编译软件来保护他们的知识产权，即可以执行的二进制代码，但难以通过潜在的攻击者理解。在本文中，我们研究了该过程能够保护图像处理算法的程度如何。特别是，我们研究了从双能量CT数据的单能量图像和碘映射的计算是否可以通过机器学习方法反向设计。我们的结果表明，两者只能在所有研究中以非常高的精度使用一个单片图像作为训练数据，以非常高的精度，在所有调查的情况下，结构相似度大于0.98。

translated by 谷歌翻译